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摘要 : [目的 /意义 ] 对 数字 人 文 视 域 下 甲骨 文 识别 研究 进行 系统 性 综述 ， 为 后 续 研究 提供 参考 和 借鉴 ， 
推动 数字 人 文 研究 有 效 发 展 与 古籍 文字 识别 利用 。[ 方法/ 过程] 采用 文献 计量 分 析 的 方法 ， 在 WOS、 中 国 
知 网 等 多 个 学 术 平 台 检 索 文献 ， 共 筛选 103 篇 英文 文献 和 52 篇 中 文 文献 进行 综述 。[ 结果 /结论 ] 从 传统 识 
别 技术 、 机 器 学 习 和 深度 学 习 3 个 层面 解读 甲骨 文 识别 研究 现状 , 但 并 未 深入 阐述 识别 算法 机 制 。 甲 骨 文 
识别 技术 由 传统 的 特征 提取 逐渐 转 为 基于 深度 学 习 的 识别 技术 ， 在 识别 精度 等 方面 有 很 大 提升 ， 但 仍 存在 
一 些 不 足 ， 同 时 甲骨 文 知 识 库 、 知 识 图 谱 的 构建 与 领域 知识 的 建立 在 该 领域 有 较 好 的 发 展 潜力 。 


关键 词 : 数字 人 文 甲骨文 识别 ”研究 进展 
mess CAB 


引用 格式 : XD, GE, Aa, 等 . 甲骨 文 识别 技术 研究 现状 与 展望 [J/OL]. 知识 管理 论坛 2022, 8(2): 


115-125[ 引用 日 期 ]. http://www.kmf.ac.cn/p/337/. 


伴随 着 数字 技术 与 人 文 研究 碰撞 的 不 断 深 
入 ， 作 为 交叉 领域 的 “数字 人 文 ” 人 研究 其 地 位 
日 益 凸 显 。 数 字 人 文 借助 信息 技术 、 数 字 技 术 
助力 传统 人 文学 科研 究 ， 成 为 当下 “新 文科 ” 
发 展 的 新 生长 点 "0 。 数 字 人 文 研究 涉及 多 个 领 
域 ， 研 究 对 象 为 人 文学 科 领 域 各 类 可 数字 化 的 
资源 外， 形式 上 包括 图 像 资料 、 无 格式 文本 、 
视频 音频 等 , 内 容 上 包括 历史 文献 、 图 书 档 案 等 。 
数字 人 文 研究 在 文学 、 语 言 学 、 历 史 、 地 理 等 
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多 个 领域 发 挥 重 要 作用 。 

古籍 数字 化 是 数字 人 文 研 究 最 基础 的 条 件 
之 一 由， 甲骨 文 识别 研究 作为 古籍 数字 化 的 重 
要 一 环 ， 也 是 数字 人 文 的 研究 对 象 ， 在 古籍 特 
定 领 域 数字 人 文 研究 中 具有 重要 意义 。 在 “ 数 
字 人 文 ”理念 和 技术 的 帮助 下 ， 甲 骨 文 等 古籍 
文字 资源 的 挖掘 整合 、 特 征 提取 、 识 别 研究 等 
都 能 在 深度 与 广度 上 得 到 拓展 ， 帮 助 古籍 文字 
资源 成 为 兼 具 历史 性 、 可 视 性 且 组 织 结构 合理 
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KA= 
的 数字 人 文 记忆 。 

甲骨 文 是 迄今 为 止 发 现 的 最 早 具有 完整 体 

系 的 汉字 外 ,具有 深厚 的 历史 文化 意义 。2017 
年 甲骨 文人 选 联合 国教 科 文 组 织 “ 世 界 记忆 名 
录 ”， 其 重要 的 文化 价值 和 历史 意义 得 到 世界 
认可 。 习 总 书记 在 2019 年 为 纪念 甲骨 文 发 现 
120 周年 座谈 会 所 发 贺信 中 提 及 “殷墟 甲骨 文 的 
重大 发 现在 中 华文 明 乃 至 人 类 文明 发 展 史上 具 
有 划时代 的 意义 ”， 强 调 要 确保 甲骨 文 研究 有 
人 做 、 有 传承 。 综 合 运 用 人 工 智 能 等 技术 手段 
进行 甲骨 文 识别 , 促进 其 在 新 时 代 的 活化 传承 ， 
不 仅 是 传承 中 华文 明 、 开 创新 时 代 语 言 文字 新 
局 面 的 迫切 要 求 ， 也 是 学 术 界 一 直 以 来 探索 和 
实践 的 方向 。 
机 器 学 习 、 深 度 学 习 等 技术 的 迅速 发 展 在 
给 甲骨 文 识别 带 来 新 的 机 遇 的 同时 ， 也 提出 了 
更 加 多 元 的 需求 ， 越 来 越 多 的 学 者 开始 关注 到 
甲骨 文 识 别 与 古籍 文字 资源 的 深入 挖掘 整合 与 
多 途径 传播 。 

已 有 的 文献 [6-7] 大 多 从 计算 机 视觉 角度 出 
发 对 甲骨 文 识 别 技术 进行 综述 ， 缺 乏 在 数字 人 
文 视 域 下 对 甲骨 文 识别 的 前 沿 热点 探讨 。 鉴 于 
此 ， 笔 者 采用 系统 性 综述 的 方法 对 截至 2022 年 
上 半年 的 国内 外 155 篇 针对 甲骨 文 识 别 研 究 的 
文献 进行 梳理 、 归 纳 和 分 析 ， 将 数字 人 文理 念 、 
技术 和 方法 与 甲骨 文 识别 技术 相 结合 ， 旨 在 揭 
示 数 字 人 文 视 域 下 甲骨 文 识 别 的 研究 现状 ， 分 


文 识 别 技术 的 发 展 ， 为 甲骨 文 的 活化 利用 、 十 
籍 特定 领域 数字 人 文 研究 提供 支撑 ,促进 数字 
人 文 研究 有 效 发 展 ， 拓 宽 数 字 人 文 边界 ， 同 时 
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帮助 有 关 学 者 挖掘 古籍 文字 的 多 维 价值 ， 促 进 
中 华文 明 的 传承 发 展 。 


@O 甲 骨 文 识别 研究 现状 


1.1 数据 来 源 与 研究 方法 

本 研究 主要 采用 文献 计量 分 析 法 ， 在 多 个 
数据 库 中 通过 特定 检索 式 ， 检 索 获 得 多 篇 相关 
文献 ， 同 时 借助 YOSviewer、Excel 等 可 视 化 工 
有 具 从 宏观 层面 把 握 甲 骨 文 识别 技术 研究 发 展现 
状 , 既 可 以 在 时 间 上 分 析 相 关 主 题 的 发 展 历 程 ， 
也 可 以 系统 地 分 析 数 字 人 文 视 域 下 甲骨 文 识别 
技术 的 研究 重点 与 方向 。 

在 Web of Science、 和 谷歌 学 术 数 据 库 中 通 
过 高 级 检索 ， 运 用 检索 式 TS=(“oracle bone 


script! or ‘Oracle? or 'oraclebone' or ‘oracle 


bone inscriptions? ) AND TS=( ‘recognition’? or 
‘detection’ ) 检索 英文 文献 。 同 时 ， 在 中 国 知 网 
数据 库 中 运用 检索 式 SU= 甲骨 文 识别 OR SU- Hf 
骨 文 检测 OR SU=( “甲骨 文 '+' 甲 骨 文 拓片 "*(' 识 
别 ”+” 检 测 ”) OR KY! 甲骨文” + ”甲骨 文 
拓片 ”x*(“ 识 别 ”+” 检 测 ”) OR (AB=(“ 甲 骨 
文 " + ”甲骨 文 拓片 ”x*(“ 识 别 ”+” 检 测 ”) and 
KY=<(“ 识 别 ”+” 检 测 ”)) 检索 中 文 文献 ， 筛 选 
截至 2022 年 上 半年 的 近 几 十 年 来 的 文献 ， 经 过 
人 工 筛选 ， 剔 除 与 甲骨 文 识别 技术 主题 无 关 的 文 
献 ， 最 终 获 取 103 篇 英文 文献 和 52 篇 中 文 文献 。 

检索 结果 所 得 论文 年 发 文 量 如 图 1 所 示 。 
从 图 1 可 以 看 出 ， 学 界 对 于 甲骨 文 识 别 技术 的 
相关 研究 热度 逐渐 增加 ， 论 文 年 发 文 量 在 近 5 
年 呈现 较 快 增长 ， 对 甲骨 文 识别 进行 系统 性 综 
述 有 较 高 的 研究 价值 。 
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通过 VOSviewer， 对 103 篇 英文 文献 的 标 
题 和 摘要 内 容 进 行 聚 类 分 析 ， 从 主题 与 时 间 两 
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个 维度 绘制 聚 类 图 ， 可 以 展现 当前 甲骨 文 识别 
领域 的 研究 热点 与 研究 趋势 , 如 图 2、 图 3 所 示 : 


从 图 2、 图 3 可 以 看 出 ， 在 研究 对 象 上 甲骨 
文 识别 主要 针对 甲骨 文 拓 片 图 像 、 甲 骨 文 字形 ， 
在 识别 技术 上 主要 依赖 深度 学 习 、 构 建 模 型 ， 
准确 性 、 速 度 效 率 为 该 领域 重要 的 评价 指标 。 
随 着 技术 的 发 展 成 熟 ， 深 度 学 习 技术 的 高 度 应 
用 与 数据 库 、 知 识 库 的 搭建 逐渐 成 为 学 界 关注 
的 方向 。 
1.2 甲骨 文 识别 技术 研究 现状 
1.2.1 传统 识别 技术 

传统 的 甲骨 文 识别 技术 主要 采用 特征 提取 


2016 2017 2018 2019 2020 


3 数字 人 文 视 域 下 甲骨 文 识别 研究 文献 聚 类 图 (按时 间 ) 


( feature extract) 的 方法 ， 基 于 甲骨 文字 形 结构 
特征 ， 从 字形 特征 角度 或 拓扑 图 形 特 征 角度 出 
发 ， 对 其 特征 进行 提取 ， 从 而 进行 分 级 甲骨 文 
识别 。 

由 于 甲骨 文字 形 复杂 多 变 ， 之 前 的 研究 者 
将 其 视 作 线条 图 ， 从 字形 特征 出 发 ， 通 过 分 析 
笔划 方向 、 弯 曲 度 、 折 弯 程 度 等 ,来 提取 拓扑 
特征 。 复 旦 大 学 的 周 新 伦 和 李 锋 等 1 把 甲骨 文 
看 作 是 由 “ 线 ” 与 “点 ”构成 的 无 向 图 ， 进 行 
图 特征 提取 ， 将 各 类 图 论 编码 作为 字符 的 拓扑 
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KA= 
特征 ， 从 而 进行 分 级 识别 。 

但 甲骨 文字 大 多 是 刻 在 硬 骨 甲 党 上 ， 品 声 
较 大 ， 前 者 在 去 噪 识别 特征 方面 精确 度 较 低 ， 
而 基于 轮廓 线 的 特征 提取 、 描 述 可 以 提高 甲骨 
文 识 别 的 精确 度 ， 因 此 后 者 主要 从 图 形 特 征 或 
拓扑 结构 出 发 进行 甲骨 文 识 别 。2010 Æ HH 
K, EUR UP 将 基于 曲率 直方 图 的 傅 里 叶 描 
Xh F (Fourier descriptor of curvature histogram, 
FDCH ) 作为 新 的 特征 ， 并 据 此 计算 出 甲骨 文字 
对 应 的 特征 向 量 ， 从 而 计算 相似 度 进行 甲骨 文 
识别 。2016 年 顾 绍 通 5 通过 分 析 甲 骨 文字 形 的 
拓扑 特征 ， 将 甲骨 文 转 化 为 拓扑 图 形 ， 对 其 进 
行 编码 ， 将 拓扑 编码 与 拓扑 特征 库 进行 配 准 ， 
从 而 实现 甲骨 文 识别 。 

1.22 基于 机 融 学 习 识 别 技术 

由 于 机 需 学 习 算 法 在 计算 机 视觉 领域 获得 
了 很 大 成 功 ， 因 此 除了 图 论 方 法 中 手动 编码 进 
行 匹配 之 外 ， 部 分 甲骨 文字 形 识别 工作 也 引入 
了 机 咒 学 习 算 法 。 

支持 向 量 机 (Support Vector Machine, 
SVM ) "是 隶属 机 器 学 习 的 新 一 代 学 习 方 法 ， 
广泛 应 用 于 图 像 分 类 、 手 写 图 像 识别 等 领域 。 
与 人 工 神经 网 络 相 比 ，SVM 对 测试 样本 具有 更 
好 的 泛 化 能 力 ， 对 于 资源 稀缺 的 甲骨 文 识 别 具 
有 优势 。X. Shi ^ 利用 语料库 相关 技术 处 理 形成 
了 一 个 简单 的 甲骨 文 数 据 库 ， 并 在 此 基础 上 进 
行 数据 挖 气 ， 使 用 SVM 进行 基于 部 首 的 分 类 ， 
以 达到 知识 共享 和 辅助 甲骨 文学 者 考证 的 目的 。 
刘 永 革 等 5 通过 块 状 直 方 图 提取 特征 ， 引 入 经 
典 的 SVM 作为 甲骨 文 识别 的 模型 ， 使 精确 度 达 
到 了 88%。 此 外 ， 度 量 学 习 在 克服 甲骨 文 识别 
中 训练 数据 的 局 限 性 和 不 平衡 性 方面 也 有 较 多 
应 用 。 

1.2.3 基于 深度 学 习 识 别 技术 

机 需 学 习 需 要 人 为 机 需 提 供 特 征 进行 学 习 ， 
对 应 到 甲骨 文 识别 中 ， 即 需要 先 定义 不 同 甲骨 
文 类 的 特征 ， 对 专家 的 依赖 性 较 高 而 导致 信息 
共享 普及 率 较 低 ， 在 识别 精度 、 识 别 效 率 等 方 
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面 仍 有 提升 的 空间 。 将 深度 学 习 技术 运用 到 甲 
骨 文 识别 中 ， 能 够 利用 大 量 甲骨 文字 形 数据 集 
自动 提取 拓扑 特征 ， 即 不 需要 人 为 定义 特征 和 
规则 ， 交 由 计算 机 独立 识别 图 像 ， 并 根据 给 定 
数据 图 像 进行 自我 迭代 训练 ， 从 而 提高 甲骨 文 
识别 精度 与 识别 效率 。 

深度 学 习 技 术 在 甲骨 文 识别 领域 的 应 用 主 
要 可 以 分 为 两 步 : 第 一 步 是 实现 甲骨 文字 体 的 
目标 检测 及 实例 分 制 ， 第 二 步 是 识别 被 提取 的 
甲骨 文字 符 。 关 于 甲骨 文 识别 方向 的 研究 除了 
提升 甲骨 文 识 别 精度 以 外 ， 还 包括 低 资 源 甲 骨 
文字 符 识 别 、 甲 骨 文 变 体 识别 等 。 近 年 来 ， 学 
界 对 甲骨 文 拓片 图 像 识 别 的 研究 逐渐 增多 ， 且 
识别 效果 较 好 ， 相 关 研 究 统计 见 表 1。 

(1) 甲骨 文 检测 。Faster R-CNN 是 目标 检 
测 领 域 的 代表 性 算法 ， 在 此 基础 上 Z. Liu 55 P" 
优化 了 Faster R-CNN 负 样 本 过 多 的 问题 ， 大 大 
提高 了 检测 精度 ; L. Meng 等 P 使 用 并 扩展 了 
单 次 多 箱 探 测 器 (Single Shot MultiBox Detector, 
SSD ) 中 来 检测 带 有 摩擦 的 甲骨 文字 符 ， 改 进 
了 SSD 在 识别 较 小 物体 时 准确 度 较 低 的 问题 ; X. 
Yue & P 应 用 一 种 基于 形态 学 的 分 割 方法 对 白 
川 手 写 甲 骨 文 文档 中 的 字符 进行 分 制 ， 并 提出 
一 种 神经 网 络 来 消除 错误 分 割 字 符 的 噪声 。 

(2) 甲骨 文 识别 。 基 于 深度 学 习 的 甲骨 文 
识别 技术 将 传统 方法 的 特征 提取 与 多 种 处 理 过 
程 合 为 一 体 ， 依 靠 大 量 的 训练 数据 和 强大 的 计 
算 性 能 ， 在 甲骨 文 识 别 中 逐渐 发 挥 重要 作用 。 
刘 芳 、 李 华硕 等 U* 基于 Mask R-CNN 进行 甲骨 
文 拓片 识别 ， 识 别 准确 率 提升 至 95%; HT. 
刘 芳 等 中 进一步 改进 Mask R-CNN， 实 现 类 别 
飞 蔽 与 自动 识别 较 正 相 结合 ， 首 次 针对 拓片 图 
像 进行 甲骨 文字 符 检测 与 识别 一 体 化 ; 林 小 渝 
等 IW 在 深度 学 习 模 型 的 基础 上 上， 首次 提出 从 
甲骨 文 单 偏旁 角度 进行 甲骨 文 识别 ， 不 仅 取得 
较 高 的 识别 率 ， 还 能 帮助 识别 甲骨 文 新 字 ， 即 
零 样 本 学 习 (zero-shot learning) ， 具 有 较 高 的 
应 用 意义 。 
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表 1 用 于 深度 学 习 的 拓片 图 像 识别 数据 统计 表 


作者 数据 集 技术 方法 结果 
WER, ROBEN 《殷墟 小 屯 村 中 村 南 甲 将 甲骨 文 图 像 转化 为 编码 训练 集 : 100% 
上 骨 》: 515 片 甲骨 ,6 230 
张 甲骨 单字 图 像 
刘 芳 、 李 华硕 等 "9 《甲骨 文 合 集 》: 4378 张 Mask R-CNN 检测 和 识别 准确 率 均 达 到 
甲骨 文 单字 图 像 95% 
间 升 、 刘 芳 等 "” ”中国 国家 博物 馆 馆 藏 甲骨 ”改进 Mask R-CNN， 实 现 检 测 与 训练 集 : 99.5% 
精品 拓片 图 像 以 及 《甲骨 文 识别 一 体 化 测试 集 : 61.7% 


合集 》 中 部 分 甲骨 拓片 图 像 
和 入 《甲骨 文 常用 字 字 典 》 
有 助 数据 集 

林 小 渝 、 陈 善 雄 等 IS HCL2000 数据 集 


甲骨 文 偏旁 : BN-LeNet 网 络 ; 甲骨 文 偏旁 : 96.24%; 
甲骨 文 合体 字 : OraNet 模型 甲骨 文 合体 字 : 98.58% 


张 咖 康 、 张 恒 等 中 ”安阳 师范 学 院 甲骨 文 信息 跨 模 态 深度 已 知 : 86.796; 
处 理 实验 室 甲骨 文 数据 集 度量 学 习 新 类 : 62.196 
( 共 295 466 个 样本 ) ， 选 
取 241 类 拓片 甲骨 文字 样本 
L. Meng, N. 由 “上 海 博物 馆 甲 骨 文 字 ” ” 自 上 向 下 扩展 聚 类 (Top-Down 首次 使 用 深度 学 习 识 别 真 
Kamitoku 等 扫描 而 来 Extension Clustering, TDE-C) MK 实 甲 骨 文 字符 ， 准 确 率 达 
HERE (Dependency Matrix, DM) 到 92.3% 
L. Meng, B. Lyu 等 1 一 个 由 真实 摩擦 图 像 组 成 ” 单 侧 多 箱 检测 器 ( Single Shot 准确 率 达 到 95% 
的 甲骨 文 数据 集 ( 同类 中 的 MultiBox Detector, SSD ) 
第 一 个 数据 集 ) 
L. Meng, N. 由 “上 海 博 物 馆 甲 骨 文 字 ” SSD 准确 率 达 到 97% 
Kamitoku 等 P? 扫描 而 来 
N. Wang、Q. Sun 等 器 ”公开 网 络 数据 集 “ 筷 契 文 YOLOv4 模型 (You Only Look ”识别 准确 率 达 到 7596, 
pM Once version4 ) 召回 率 达 到 90% 
B. Du, G. Liu, W. ”公开 网 络 数据 集 “ 有 和 殷 契 文 双 分 支 自我 监督 深度 学 习 
Ge? UR" 
X. Yue, B. Lyu E.I 立 命 馆 大 学 白川 静香 东亚 “动态 K-means 聚 类 、 定 向 梯度 ”区 分 噪声 和 字符 的 准确 率 
文字 文化 研究 所 直方 图 (Histogram of oriented ”达到 96.5%， 字 符 分 类 准 
“白川 字体 ” gradient, HOG ) 特征 、 神 经 网 络 确 率 达到 74.91% 
C. S. Zhang, R. X. 真实 甲骨 文 数据 集 OB- ”甲骨文 重 联 算法 、 基 于 深度 学 习 ”碎片 匹配 前 10% 准确 率 
Zong 4 P9 Rejoin 、 甲 骨 文 注释 数据 集 的 场景 文本 检测 算法 、 深 度 模 型 ”为 98.39%; 甲骨 文 定位 


OracleBone-8000 


Z. Guo $% P? Je H — fib 3E F Inception-v3 


匹配 算法 F 得 分 为 89.7%; 甲骨 文 
识别 总 体 准 确 率 为 80.9% 


示 能 力 , 因此 字符 识别 的 准确 性 得 到 显著 提高 。 


的 用 于 甲骨 文 识别 神经 网 络 模型 ， 该 模型 比 
AlexNet、VGG-19 更 加 优越 ， 在 特征 模糊 、 庶 
挡 、 残 缺 的 情况 下 仍 能 取得 良好 的 效果 ; HJI] 
等 趾 提 出 了 一 种 两 阶段 方法 ,采用 最 新 的 “只 
看 一 次 ”( YOLO ) 模型 和 MobileNet 进行 带 有 
摩擦 的 甲骨 文字 符 识别 。 这 些 方法 引入 了 神经 
网 络 和 深度 学 习 ， 使 模型 获得 了 更 好 的 特征 表 


由 于 甲骨 文 拓 片 图 像 训 练 样本 较 少 、 图 像 磨 损 
较 大 ， 因 此 基于 拓片 载体 的 甲骨 文 识别 精确 度 
PUR KERSE 外 创新 性 地 提出 基于 跨 模 态 深 
度 度 量 学 习 的 甲骨 文 识别 技术 ， 它 改编 自 J. Guo 
等 趾 提 出 的 基于 卷 积 神经 网 络 ( convolutional 
neural networks, CNN ) 的 甲骨 文 识别 ， 在 CNN 
和 深度 度量 学 习 的 基础 上 ， 配 有 临摹 、 拓 扑 甲 
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KA= 
骨 文 字 特 征 编码 器 , 实现 跨 模 态 特征 空间 建 模 ， 
最 终 实现 甲骨 文 识 别 ， 将 精确 度 从 单 模 态 识别 
的 66.6% 提升 至 跨 模 态 识别 的 88.4%。 

也 有 学 者 提出 新 的 甲骨 文 识别 思路 。F. Gao 
等 中 提出 了 一 种 基于 生成 对 抗 网 络 的 图 像 从 甲 
骨 文 到 现代 汉字 的 图 像 翻译 方法 ， 首 次 尝试 捕 
获 甲 骨 文 字符 图 像 与 现代 汉字 之 间 的 隐形 关系 ; 
W. Han ^5 P* 将 自我 监督 学 习 的 思想 融入 到 数据 
增强 中 ， 在 识别 很 少 拍摄 的 甲骨 文字 符 时 有 具有 
较 高 的 性 能 。 

(3) 低 资源 字符 识别 。 标 注 语 料 稀缺 且 分 
布 不 平衡 ， 部 分 甲骨 文字 符 只 有 一 个 或 几 个 基 
础 样本 ,这 种 带 标注 训练 语 料 不 足 条 件 下 的 识 
别 任务 被 称 为 低 资源 识别 任务 ， 直 接 使 用 深度 
学 习 方 法 不 能 很 好 地 识别 低 资 源 字 体 。 因 此 , 开 . 
Li 等 中 提出 了 一 种 混淆 策略 ， 利 用 混合 多 数 类 
和 人 少数 类 的 方法 来 增加 样本 ， 并 使 用 三 重 损失 
函数 来 元 服 分 布 不 平衡 的 问题 。 同 时 为 了 避免 
在 数据 集 小 、 图 像 质 量 低 的 情况 下 模型 数据 过 
EWEA, L. Dazheng 等 P9 提出 了 随机 多 边 形 覆 
盖 算 法 的 数据 增强 算法 来 模拟 训练 数据 集中 可 
能 的 损伤 对 象 和 数据 丢失 。 

严格 意义 上 的 甲骨 铭文 总 数 为 3 085 个 ， 
占 甲 骨 铭 文 总 数 的 51.91% 中 ， 因 此 识别 变 体 对 
于 甲骨 文 研究 至 关 重 要 。J. Gao 等 趾 提 出 了 一 
种 两 阶段 方法 来 区 分 它们 ， 在 第 一 阶段 通过 计 
算 机 相关 方法 识别 甲骨 文 变 体 字符 ， 然 后 在 第 
二 阶段 通过 结合 先 验 知识 的 多 域 方 法 进一步 识 
别 未 识别 的 甲骨 文 变 体 字符 ; G. Liu 等 加 提出 
通过 将 深度 卷 积 神经 网 络 ( deep convolutional 
neural network, DCNN ) 与 频谱 聚 类 相 结合 来 识 
别 甲骨 文 的 变 体 。 前 者 用 于 为 甲骨 文 图 像 提 供 
准确 的 描述 , 后 者 用 于 查找 每 个 甲骨 文 的 变 体 。 


人 @ 甲 骨 文 数据 处 理 与 存储 


利用 知识 库 、 人 工 智能 等 多 方面 新 兴 技 术 ， 
并 辅 之 人 工 复 校 ， 既 可 提升 古籍 文字 识别 的 准 
确 率 ， 也 可 充当 工具 库 为 数字 人 文 研究 提供 帮 
助 。 甲 骨 文 数据 库 、 知 识 库 的 构建 ， 不 仅 为 计 
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算 机 识别 甲骨 文 提供 大 量 矢 量 字形 ， 扩 充 数据 
的 多 样 性 ， 也 为 甲骨 文 各 项 研究 提供 丰富 的 检 
索 帮助 ， 便 于 推动 甲骨 文 古 籍 数字 化 研究 ， 愈 
发 成 为 当前 学 界 关 注 的 重点 。 

2.1 数据 库 的 构建 和 标注 

目前 ， 有 多 家 学 术 机 构 开 展 了 甲骨 文 数据 
库 与 知识 库 的 构建 工作 。 香 港 汉 达 文 库 P 甲骨 
文库 是 最 早 的 甲骨 文 数据 库 ， 目 前 最 大 的 甲骨 
文 数据 库 是 陈 年 福 构建 的 甲骨 文 原文 释文 数据 
pg 中。 栗 青 生 和 吴 琴 霞 等 中 为 了 解决 对 甲骨 
文 异形 字 编 码 与 输入 的 问题 ,通过 有 向 笔 段 和 
笔 元 描述 甲骨 文字 形 ， 并 建立 甲骨 文字 形 动态 
描述 库 ， 这 也 有 助 于 甲骨 文 识别 。 

随 着 人 工 智能 等 技术 的 突破 ， 机 器 学 习 、 
深度 学 习 逐 渐 融 人 甲骨 文字 识别 等 古籍 数字 化 
工作 中 ， 助 力 数字 人 文 研 究 。 多 位 学 者 所 提 
出 基于 人 工 智 能 技术 训练 深度 学 习 模 型 ， 并 在 
此 基础 上 建立 甲骨 文字 形 数据 库 ， 以 此 帮助 甲 
上 骨 文 字 检 索 。S. Huang 等 中 构建 了 一 个 名 为 
OBC306 的 甲骨 文字 符 大 型 数据 集 ， 并 基于 标准 
的 深度 CNN 对 该 数据 集 进 行 评估 ， 作 为 甲骨 文 
识别 的 基准 模型 。 

在 现 有 的 技术 环境 中 ， 只 有 经 验 丰 富 的 甲 
骨 文 专家 才能 对 甲骨 文 进行 手动 注释 ， 这 不 仅 
耗费 人 力 资 源 ， 而 且 效 率 低下 。 针 对 这 一 问题 ， 
S. H. I. Xian-Jin 等 四 在 甲骨 文 图 像 识别 模型 的 
基础 上 ， 提 出 一 种 基于 锚 点 的 甲骨 文字 符 级 图 
像 自动 注释 算法 。 

2.2 领域 知识 的 建立 

甲骨 文 知识 库 与 知识 图 谱 是 甲骨 文 数据 库 
的 扩展 ， 是 在 甲骨 文 数据 库 、 文 字库 的 基础 上 ， 
进行 条 件 概 率 语 法 现象 统计 、 甲 骨 文 语 料 分 析 、 
句法 分 析 等 之 后 建立 的 综合 知识 库 ， 用 以 进行 
知识 组 织 与 知识 服务 。 建 立 甲 骨 文 文字 库 和 综 
合 智能 知识 库 ， 支 持 逐 级 排 歧 校正 ， 有 助 于 准 
确 表达 甲骨 文 含义 ， 助 力 数字 人 文 研究 ， 也 为 
甲骨 文 信息 处 理 提供 创新 性 的 研究 思路 1。 

J.Xiong 等 外 针对 甲骨 文 研究 学 习 难 度 大 、 
学 习 周 期 长 、 知 识 点 广 但 知识 连接 弱 、 共 享 度 
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低 等 问题 ， 提 出 一 种 构建 多 模 态 知识 图 谱 的 解 
决 方案 。 甲 骨 文 多 模 态 知识 图 谱 可 以 为 多 源 异 
构 数 据 提 供 统 一 的 语义 空间 。 通 过 多 模 态 融合 
和 信息 互补 ， 可 以 解决 信息 处 理 中 单一 模 态 的 
缺陷 。 这 个 多 模 态 知识 图 谱 可 以 更 好 地 组 织 
管理 基础 数据 ， 为 甲骨 文 信息 处 理 研 究 服 务 。 

安阳 师范 学 院 是 国内 唯一 的 甲骨 文理 工科 
研究 基地 ， 与 社会 科学 院 甲骨 学 碟 商 史 人 研究 中 
心 共同 建设 “三 库 一 平台 ”， 即 甲骨 文字 库 、 
著录 库 、 文 献 库 和 甲骨 文 知 识 服务 平台 ， 标 志 
着 甲骨 学 研究 由 “数字 化 ”进入 “智能 化 ”时 
代 四 。 其 中 大 数据 平台 构建 了 基于 人 工 手写 甲 
上 骨 文 字符 数据 库 hwobc， 它 包含 83 245 个 字符 
级 样本 ，3 881 个 字符 类 别 ， 并 采用 传统 深度 学 
习 分 类 网 络 进行 学 习 分 类 。 一 方面 深度 学 习 打 
破 馆藏 资源 的 界限 ， 公 开 扩 大 数据 集资 源 ， 从 
而 形成 丰富 的 测试 集 ， 提 升 深度 学 习 的 性 能 ; 
另 一 方面 实现 文史 研究 与 智能 技术 的 深度 融合 ， 
促进 甲骨 文 研究 工作 的 发 展 。 

在 领域 知识 的 建立 中 ， 知 识 本 体 可 以 以 知 
识 元 的 形式 对 智能 技术 提取 出 的 数据 进行 有 效 
关联 ， 构 建 出 语义 网 络 ， 提 高 对 数据 资源 的 整 
合 利 用 ， 同 时 语义 网 络 也 可 利用 其 推理 、 计 算 
能 力 ， 帮 助 研究 者 考释 未 破译 的 甲骨 文字 UU, 
例如 ，Q. Jiao 等 所 构建 语义 网 络 ， 进 行 具有 相 
似 语义 的 甲骨 文字 符 的 模块 结构 检测 。 


[3 EE rH 


3.1 数据 特征 

甲骨 文 的 构成 方式 主要 为 4 种 ， 分 别 是 象 
形 、 形 声 、 会 意 和 指 事 。 其 中 ， 象 形 字 占 据 了 
较 大 比例 ， 一 些 形 声 字 、 会 意 字 也 是 在 象形 字 
的 基础 上 发 展 而 来 凹 。 因 此 ， 甲 骨 文 字 具 有 和 较 
强 的 图 画 性 。 现 阶段 ， 相 关 领 域 的 大 多 数学 者 
倾向 于 将 甲骨 文 归 类 至 图 形体 文字 而 非 笔 画 体 
文字 。 他 们 认为 ， 甲 骨 文 不 仅 不 存在 现代 汉字 
中 所 谓 的 笔画 概念 ， 在 笔画 多 少 、 正 反 向 背 入 
方面 也 没有 统一 要 求 。 甲 骨 文 偏旁 部 首 的 排列 
既 不 是 横 排 也 不 是 竖 排 ,在 字形 结构 上 有 着 一 
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定 的 随意 性 。 同 时 ， 由 于 甲骨 文笔 端 尖 细 、 难 
以 区 分 笔画 ， 专 家 在 识别 甲骨 文 时 只 能 将 其 作 
为 一 个 整体 输入 。 这 些 特点 在 学 者 采用 现代 化 
技术 对 其 识别 时 造成 了 较 大 的 困扰 。 

ATE, EP ETRA, BEME 
有 限 ， 以 现代 标准 来 衡量 ， 甲 骨 文 的 排版 是 参 
差错 落 、 玻 密 不 均 、 大 小 不 一 的 ， 部 分 甲骨 文 
字 为 了 能 够 更 加 准确 地 表示 相对 复杂 的 实物 ， 
一 个 字 通 常会 占据 多 个 字 的 位 置 中 。 因 此 ， 在 
对 甲骨 文 进行 识别 的 过 程 中 少 有 版 式 信 息 可 以 
BI 

类 比 于 现代 汉字 的 书写 系统 ， 不 同 的 人 对 
于 同一 个 甲骨 文字 也 有 着 多 种 不 同 的 刻写 方法 。 
例如 ， 一 些 会 意 字 只 需要 指定 偏旁 结合 就 能 
表示 某 种 含义 ， 而 不 要 求 其 位 置 固定 "。 不 同 
的 刻写 方法 造成 了 不 同形 体 的 甲骨 文 的 存在 ， 
不 同形 体 的 甲骨 文 之 间 差 别 很 大 路。 字体 变 体 
和 相似 字符 之 间 的 混淆 使 得 甲骨 文 的 识别 具有 
一 定 的 难度 。 此 外 ,甲骨 文字 频 存 在 两 端 集中 
现象 ， 即 少数 高 频 字 占 总 字 量 的 高 比重 ， 和 在 
总 字 量 中 占 极 低 比重 的 低频 字 占 单字 总 数 的 极 
高 比重 中。 低频 字 高 度 集中 的 现象 表现 出 甲骨 
文 作为 一 个 文字 系统 的 不 成 熟 性 。 除 此 之 外 ， 
还 有 大 量 的 甲骨 文 属于 未 考释 字 局， 这 些 特征 
都 为 甲骨 文 的 识别 增加 了 难度 。 

部 分 甲骨 拓片 受到 年 代 久 远 、 保 存 条 件 恶 
劣 等 因素 的 影响 ， 表 面 遭 受 不 同 程度 的 残 蚀 与 
破损 。 考 古 学 家 在 获取 拓片 甲骨 文字 图 像 的 过 
程 中 也 会 对 原始 甲骨 拓片 产生 一 定 的 破坏 ， 如 
Js dn Hr EDO ROB JC SC BU Ja e 01 
这 些 操作 可 能 会 导致 甲骨 文字 缺 笔 变形 。 因 此 ， 
大 部 分 拓片 甲骨 文字 图 像 都 具有 图 像 残缺 、 品 
声 严重 等 缺点 。 

3.2 识别 技术 

甲骨 文 识别 技术 目前 尚 处 于 起 步 阶段 ， 现 
有 的 甲骨 文 识别 技术 不 仅 存在 无 法 完全 提取 甲 
骨 文 字 的 特征 、 无 法 完全 符合 甲骨 文字 的 实际 
情况 等 问题 ， 其 本 身 的 复杂 性 也 使 现 有 算法 在 
使 用 范围 等 方面 受到 一 系列 的 限制 。 换 言 之 ， 
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目前 甲骨 文 识别 技术 的 性 能 还 不 太 能 够 达到 完 
全 实用 化 水 平 ， 未 来 有 待 进一步 发 展 与 完善 。 

以 卷 积 神经 网 络 为 核心 的 深度 学 习 技 术 在 
大 数据 环境 下 能 够 取得 较为 理想 的 甲骨 文 识别 
效果 ， 但 该 种 技术 并 未 充分 利用 甲骨 文 的 自身 
特征 ， 无 法 为 神经 网 络 提供 大 量 的 特征 提取 样 
本 ， 在 其 他 条 件 下 的 识别 效果 不 尽 人 意 。 

文字 识别 领域 性 能 优异 的 深度 学 习 方法 对 
大 量 样 本 训练 有 着 较 高 程度 的 依赖 。 因 客观 条 
件 的 限制 , 获取 拓片 甲骨 文字 有 具有 较 大 的 难度 ， 
这 导致 深度 学 习 方法 缺乏 训练 样本 ， 深 度 学 习 
算法 在 训练 集 样本 足够 大 的 情况 下 才能 充分 发 
挥 其 性 能 ， 而 甲骨 文 样本 数量 少 ,历史 跨度 大 ， 
字形 演变 丰富 ， 数 据 集 不 充分 "5"。 因 此 ， 该 种 
方法 对 真实 的 拓片 资源 很 难 取得 较 高 的 识别 精 
度 。 

在 目前 出 土 的 甲骨 拓片 中 ， 大 部 分 甲骨 文 
的 字形 无 法 得 到 准确 辨识 ， 其 读音 和 意义 仍 待 
进一步 考究 ， 这 使 得 甲骨 文 编码 输入 的 方法 存 
在 规则 繁重 、 重 码 多 和 识别 效率 低 的 缺陷 5。 
以 史 小 松 为 代表 的 “甲骨 文字 结构 派 ” 学 者 采 
用 语料库 和 支持 向 量 机 的 理论 并 建立 了 甲骨 文 
字形 库 和 语料库 ， 但 该 方法 不 仅 在 识别 图 画 特 
征明 显 、 结 构 不 清晰 的 甲骨 文字 时 存在 困难 ， 
还 伴 有 识别 效率 低 的 问题 。 


Oma imo rfe 
4.1 数据 的 扩展 


安阳 师范 学 院 和 中 国 社会 科学 院 甲 骨 学 惧 
商 史 研 究 中 心 合作 建设 的 甲骨 文大 数据 及 资料 
MrARAMEDCY RA "Bccyd" Copy EB E 
家 机 构 的 原始 甲骨 文 拓片 图 像 ， 在 一 定 程度 上 
实现 甲骨 文 拓 片 资源 共享 ， 帮 助 甲骨 学 资源 由 
“ 独 享 ” 到“ 共享”, 提供 更 多 的 原始 拓片 数据 集 ， 
提高 数据 量 与 覆盖 度 。 而 要 进一步 推动 甲骨 文 
识别 研究 ， 需 要 进一步 拓宽 这 种 资源 共享 的 渠 
道 ， 该 项 工作 任 重 而 道 远 。 

数据 集中 样本 数量 的 缺少 会 导致 识别 精度 
较 低 ， 同 时 由 于 甲骨 文 原始 资源 大 多 存在 图 像 
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残缺 、 背 景 噪 声 严 重 的 问题 ， 因 此 当 一 个 甲骨 
文字 符 写 入 时 可 以 考虑 从 字符 的 角度 或 厚度 出 
发 ， 通 过 顺 时 针 (clockwise rotate ) 2 3X I| ET JE 
转 ( counterclockwise rotate ) 、 字 符 加 深 (dilate ) 
或 腐蚀 化 Cerode) 、 压 缩 (compress ) 或 拉 伸 
C stretch ) 等 操作 , 经 过 多 次 转化 生成 新 的 图 像 ， 
由 此 扩展 数据 集 。 

在 将 甲骨 文 数据 信息 转移 到 电脑 与 网 络 的 
过 程 中 ,无 论 是 编码 类 输入 法 还 是 无 编码 类 输 
入 法 均 需 要 足够 的 甲骨 文 专业 知识 ， 且 对 于 未 
破译 的 甲骨 文字 需要 逐个 检索 甲骨 文字 形 描述 
库 ， 这 无 疑 造 成 甲骨 学 研究 的 巨大 障碍 。 因 此 ， 
应 当 提升 甲骨 文 输入 法 技术 ， 实 现 零 学 习 成 本 
与 输入 效率 的 双赢 ， 使 数字 人 文中 的 古籍 数字 
化 研究 更 便利 ， 也 更 有 利于 甲骨 文 的 研究 与 发 
展 。 
4.2 技术 的 优化 

甲骨 文 虽 是 较 成 熟 的 文字 系统 ， 但 仍 处 于 
汉字 早期 阶段 ， 异 体 字 众 多 、 低 频 字 高 度 集中 ， 
大 量 实 验 存在 检测 正确 但 识别 错误 的 情况 ， 易 
出 现 分 类 过 度 的 问题 ， 仍 需要 专家 复审 ， 对 专 
家 的 依赖 度 较 高 。 甲 骨 文 识别 研究 可 从 数据 增 
强 、 模 型 结构 调整 、 优 化 实现 3 个 方向 提高 识 
别 精 度 。 当 前 数据 增 广 策略 的 研究 对 象 基本 为 
拓片 图 像 , 可 进一步 利用 甲骨 文 单字 进行 研究 。 
因此 在 日 后 的 研究 中 ， 该 领域 研究 者 应 考虑 数 
据 的 噪声 、 图 像 残缺 和 算法 的 泛 化 能 力 弱 等 问 
题 ， 加 快 技术 开发 ， 提 高 针对 原始 甲骨 文 拓片 
资源 的 识别 效率 。 针 对 卷 积 神经 网 络 本 身 ， 网 
络 深 度 过 多 会 导致 梯度 消失 或 爆炸 的 问题 ， 从 
而 导致 网 络 性 能 下 降 ， 同 时 网 络 深度 也 不 容易 
训练 ， 因 此 不 需要 选择 更 深入 的 神经 网 络 ， 而 
是 采用 最 合适 的 优化 方法 。 

数字 人 文 是 将 信息 技术 、 数 字 技 术 融 入 传 
统 的 人 文 社 科 研究 ， 数 字 人 文人 研究 者 同时 具备 
工具 、 数 据 与 人 文 社 科 理论 ， 应 当 逐 步 做 到 文 
本 分 析 、 文 化 分 析 下， 超越 简单 的 文字 阐释 。 
因此 ， 在 甲骨 文 知识 库 、 知 识 图 谱 的 构建 中 ， 
应 更 多 考虑 提取 拓片 全 文 ， 抽 取 更 多 实体 与 关 
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系 ， 而 非 仅 仅 依靠 元 数据 信息 抽取 ， 从 而 建立 
更 完善 的 甲骨 文 知 识 关 联网 络 ， 拓 宽 甲 骨 文 考 
释 研 究 ， 从 “数据 化 ” “数字 化 ”发 展 为 “ 智 
能 化 ”， 加 强 甲 骨 文 资源 数据 库 与 智能 深度 识 
别 甲骨 文字 信息 应 用 平台 的 建设 。 


全 结语 


i de le 


展 动态 进行 了 述评 ， 并 在 数字 人 文 视 阀 下 探讨 
Pu D. 随 着 技术 的 发 
展 应 用 ， PRY 只 别 技术 从 传统 的 特征 提取 到 
基于 深度 学 习 的 各 类 技术 ， 发 展 迅 速 且 前 景 广 


阔 。 展 望 未 来 ， 数 字 人 文 视 闪 下 的 甲骨 文 识 别 
的 发 展 具 有 较 高 的 研究 意义 。 提 升 甲 骨 文 识别 
技术 ， 提 高 甲骨 文 分 类 率 ， 构 建 甲 骨 文 知识 库 
和 知识 图 谱 ， 建 立领 域 知识 ， 这 些 都 将 成 为 甲 
E ee re 
果 也 将 为 新 时 代 甲 骨 文 的 探索 和 实践 提供 重 
的 理论 指导 和 工具 。 
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Abstract: [Purpose/Significance] Digital humanities research is a prominent research hotspot in the 
current academic circle. This study systematically reviewed the frontier research on oracle bone inscription 
recognition from the perspective of digital humanities, which provided reference for follow-up research, 
promoting the effective development of digital humanities research and the recognition and utilization of 
characters in ancient books. [Method/Process] The literature was retrieved from multiple academic platforms 
such as WOS and CNKI using the method of bibliometric analysis, and a total of 103 English literature 
and 52 Chinese literature were screened for review. [Result/Conclusion] Interpreting the research status of 
oracle bone inscription recognition from three levels: traditional recognition technology, machine learning 
and deep learning, which analyzed the research development process, and discussed the future development 
trend. This paper mainly conducted a systematic review of oracle bone inscription recognition research from 
the perspective of digital humanities, which analyzed existing research technologies and research directions, 
but did not elaborate on the recognition algorithm mechanism in depth. Oracle recognition technology 
has gradually changed from traditional feature extraction to deep learning-based recognition technology. 
Although the recognition accuracy has been improved, there are still shortcomings such as serious overfitting 
and low recognition efficiency. Meanwhile, the construction of oracle knowledge base and knowledge graph, 
and the establishment of domain knowledge have good development potential in this field. 


Keywords: digital humanities oracle bone recognition research progress review 


